2007. 06. 『인문콘텐츠』 9


향토문화 하이퍼텍스트 구현을 위한
XML 요소 처리 방안


김  현*1)


Ⅰ. 머리말

Ⅱ. 「향토문화전자대전」전자문서의 정보 구조

        1. XML 문서의 요소 정의

        2. 하이퍼텍스트 노드 생성을 위한 키워드

Ⅲ. 고유명사 요소의 속성과 유형 범위

        1. 고유명사 요소의 형식

        2. 고유명사 요소의 유형 속성

Ⅳ. 고유명사 요소 식별 사례 분석 및 태깅 원칙의 도출

        1. <인명> 요소 태깅에 관한 문제

        2. <지명> 요소 태깅에 관한 문제

        3. <서명> 요소 태깅에 관한 문제

        4. <기관> 요소 태깅에 관한 문제

Ⅴ. 태깅 오류 발생 사례 분석 및 모호성 해소 방안

        1. <지명> 요소와 <기관> 요소 구별의 모호성 문제

        2. 유적에 대한 고유명사 태깅의 모호성 문제

Ⅵ. 맺음말


Ⅰ. 머리말


  하이퍼텍스트(Hyper Text)란 “문서 내의 중요한 키워드마다 다른 문서 또는 유관한 시청각 자료로 연결되는 통로를 만들어 여러 개의 문서가 하나의 문서인 것처럼 보여 주는 문서 형식”을 말한다.  「향토문화전자대전」이 하이퍼텍스트를 지향하는 이유는 일차적으로 그것이 인터넷이라고 하는 새로운 지식 유통의 환경에서 가장 강력한 영향력을 발휘하는 정보 구성 형태이기 때문이다.

  인터넷 환경에서 운용되는 여러 가지 유통 체제 가운데 이른바  “월드 와이드 웹(World Wide Web)“이라고 하는 것은  하이퍼텍스트 문서를 지원하는 서버들의 범세계적인 네트워킹이다.  「향토문화전자대전」은 그 첫 번째 편찬 과제를 수행할 때부터  출판 매체를 ‘종이 책’이 아닌 ‘전자통신망’으로 확정하였기 때문에 그 매체에 적합한 편찬 형태를 추구하는 것은 당연한 결정이었다고 할 수 있다. 그러나 하이퍼텍스트 형식으로 정보를 편찬한다고 하더라도 그 목표 수준을 어느 정도로 할 것인가에 대해서는 여러 가지 선택지가 있게 된다. 「향토문화전자대전」은 「디지털성남문화대전」의 편찬 초기부터 기사의 목록 뿐 아니라 기사 내용 전체가 상호간의 내용적 유관성을 좇아 끝없는 의미적 연관을 갖도록 하는 것을 목표로 하였다.  반 세기에 걸쳐 진화해 온 ‘하이퍼텍스트’ 기술의 이상에 가장 근접한 디지털 문화콘텐츠를 만들고자 의도한 것이다.

  「향토문화전자대전」이 기사 내용 전체를 하이퍼텍스트화 하고자 한 데에는 이 사업의 목적에 기인하는 몇 가지 이유가 있다. 그 첫 번째는 협소하게 구획되어진 ‘전문 분야’에 갇혀서 소통되지 못하였던 ‘전문 지식 정보’의 학제적 응용을 촉진한다는 취지이며, 두 번째는 장차 「향토문화전자대전」이 전국의 수많은 지역을 포괄하게 되었을 때, 상이한 지역 사이에서도 의미적 연관이 있는 지식이 상호 연계를 이룰 수 있으면, 이를 통해 특정 분야의 망라성 있는 문화 지식 정보를 제공할 수 있을 것으로 기대하기 때문이다.

  이러한 취지에서 콘텐트 기사에 포함된 키워드를 총체적으로 색인화 하여 콘텐트의 본문 전체를 하이퍼텍스트 문서로 구성하려는 노력은 「디지털성남문화대전」 편찬 사업을 통해 첫 번째 성과를 보이게 되었고, 그 방법은 정보 이용의 편의성과 자료의 다각적인 활용성을 극대화한 점에서 유효성이 입증되어, 이후의 다른 지역 문화대전 편찬 사업의 전자 텍스트 제작 지침으로 정착되었다. 그러나 본문 속 키워드에 대한 XML 태깅은 기본적으로 편찬자의 판단에 따르는 것이기 때문에 동일한 성격의 키워드의 태깅 형태가 지역 및 작업자에 따라 상이하게 나타나는 경우가 많았으며, 지식 정보의 연계 서비스가 기대한 만큼 이루어지지 못하는 결과가 초래되기도 하였다.

  본 연구는 향토문화 지식 자원을 전자정보화 하기 위해 시행하고 있는 XML 전자문서화 작업의 문제점을 그 동안의 편찬 과정에서 노정된 문제들을 중심으로 분석하고 합리적인 개선책을 제시함으로써 한국「향토문화전자대전」이 지향하는 지식 정보의 하이퍼텍스트적 연계가 보다 효과적으로 구현될 수 있도록 하는 것을 목적으로 한다.



Ⅱ. 「향토문화전자대전」전자문서의 정보 구조


  「향토문화전자대전」의 하이퍼텍스트 구성 체제를 설계한 필자는 하이퍼텍스트의 노드를 결정하기에 앞서 「향토문화전자대전」 텍스트를 구조화 하고 그 속의 다양한 정보 요소가 명시적으로 표현되도록 하는 방안을 마련하여, 모든 텍스트의 생산 공정이 그 방안에 따라 진행되도록 하였다.  즉 「향토문화전자대전」의 모든 기사는 그 내용이 어떠하든  일정한 형식적 표준을 준수하여 만들어지도록 하였고, 그 형식적 표준은 장차 하이퍼텍트의 노드1)로 활용될  부분을 명시적 정보 요소로 기술하도록 한 것이다.


1.  XML 문서의 요소 정의


  「향토문화전자대전」의 기사 내용을 담을 표준 틀은  XML  문서 형식에 따라 설계되었으며, 한 편의 기사가 [그림 1]과 같은 구조의 전자문서에 담기도록 하였다.

  이 도표에서 보듯이  <항목> 요소는 단위 기사 문서의 최상위 요소이다. 한 지역의 「향토문화전자대전」 기사는 그 길이나 서술의 복잡성 등에 구애됨이 없이 모두 이  <항목> 요소의 데이터로 기술된다. <항목> 요소는 <항목명> , <메타데이터>, <본문> 등 3 개의 하위 요소를 갖는다. 이 가운데 <항목명>은 기사의 내용을 대표하는 제목으로서  정보 서비스 시스템 상에서는 ‘콘텐츠 목차’나 다양한 형태의  ‘검색 결과 목록’을 만드는 자원으로 활용된다.   <메타데이터>는  기사의 내용을 몇 가지 범주에 의해 유형화 한  분류정보 및 콘텐츠의  제작에 관한  정보를 다루기 위해 설정한 요소이다. <본문> 요소는 항목 기사의 원고를 집필자 및 편집가 만들어난 형태대로 수록하는 부분이다. 하위 요소 중 <소표제>와 <문단>은 텍스트를 담고, <삽도> 요소에는 그 텍스트와 함께 보여 줄  사진, 영상 등 시청각 자료를 기술한다. <참고문헌> 요소는  그 기사의 집필 자원이 된 자료들의 서지 목록이다.

  「향토문화전자대전」의 기사 내용을 이처럼 구조화된 형식 속에 담는 이유는 그 내용을 이루는 ‘정보의 조각’들이 명시적으로 표현되도록 하기 위함이다. 여기서 ‘명시적’이라 함은 사람을 대상으로 하기보다는 ‘유관한 지식의 기계적 연계’를 담당해 줄 ‘컴퓨터’를 대상으로 한다.



<그림 1> 「향토문화전자대전」 단위 기사 문서의 구조 및 내용 요소



2. 하이퍼텍스트 노드 생성을 위한 키워드


  본문 텍스트 속에서 하이퍼텍스트 노드를 만들어 내는 일은 어떠한 기준을 가지고 할 것인가?  문단이나 문장 속에서 핵심적인 의미를 담고 있는 키워드를 찾을 수 있다면 그것을 하이퍼텍스트 노드로 삼을 수 있다.  문제는 어떠한 단어들을 ‘키워드’로 삼을 것인가 결정하는 것이다.

  문단이나 문장 하나 하나에 대해서 그 내용을 함축적으로 요약하는 키워드를 일일이 부여하고 그것을 하이퍼텍스트 노드로 삼는 것은 ‘의미 연관의 네트워크’를 구축한다는 점에서 이상적일 수 있다. 하지만 그러한 식의 키워드 부여 작업은 편집자의 주관에 따라 결과물의 성격이 크게 변한다는 문제점 외에도, 작업의 부담이 너무 커서 현실적이지 않다.  대안으로 텍스트 안에 포함되어 있는 어휘 중에서 키워드를 고르는 방식을 취한다고 해도 그 키워드를 선택하는 기준이 명확하지 않으면 편찬 작업자들이 혼란을 겪게 되고  결과물의 품질을 담보할 수 없게 된다.

  「향토문화전자대전」  본문 텍스트 속의  하이퍼텍스트 노드는  ‘활용성’에 대한 고려 못지않게 ‘작업의 용이성’을 고려하여  본문 문장  속에 등장하는 ‘인명’[<인명>], ‘지명’[<지명>], ‘서명’[<서명>], ‘기관명’[<기관>] 등 4 종류의 고유명사와  시간 및 공간적 개념을 ‘전자연표’ 및 ‘전자지도’와 연계하는 ‘시간 정보’[<시간>]와 ‘공간 정보’[<공간>], 그리고 본문 텍스트와  사진, 동영상 등의 시청각 자료를 연결해 주는 ‘시청각 정보’[<삽도>]  등 7 종류로 한정하였다. 

  이 7 종류의 하이퍼텍스트 노드 중에서 ‘시간 정보’, ‘공간 정보’ 그리고 ‘시청각 정보’는 텍스트 데이터와 멀티미디어 데이터의 연계를 위한 것이기 때문에 텍스트 편찬 작업 완료 후 별도의 ‘하이퍼미디어’2) 제작 공정을 통해 생산한다.  따라서  순수한 텍스트 편찬 과정에서 만들어 내는 하이퍼텍스트 정보 요소는 4 종류의 고유명사 키워드라고 할 수 있다. 다음은 「향토문화전자대전」 메타데이터 및 본문 텍스트  중 키워드로 지정한 요소들의 쓰임을 나타낸 것이다.


<표 1> 「향토문화전자대전」정보요소의 응응 기능

※ 위 표에서 본문 내 정보요소로 표시된 <인명>, <지명>, <서명>, <시간>, <공간> 요소는 <항목명>  요소와  <메타데이터> 요소 중 <상세정보> 요소에도 적용된다.

범주

정보요소

정보 서비스 응용 기능

디렉토리

색인

하이퍼 링크

항목명

한글항목명

가나다순 디렉토리

표제어 색인

 

영문항목명

ABC 순 디렉토리

영문 색인

 

메타

데이터

이칭별칭

가나다순 디렉토리

표제어 색인

 

대표분야, 분야

분야 분류 디렉토리

분야 색인

 

대표유형, 유형

유형 분류 디렉토리

 

 

표준지역, 지역

지역 분류 디렉토리

 

 

표준시대, 시대

시대 분류 디렉토리

 

 

키워드

 

 

관련항목 연결

관련항목

 

 

관련항목 연결

집필자

 

집필자 색인

 

상세정보 / 주소

 

지명 색인

전자지도 연결

상세정보 / 연대

 

 

전자연표 연결

본문

문단

인명

 

인명색인

관련항목 / 인명사전 연결

지명

 

지명색인

관련항목 연결

서명

 

서명 색인

관련항목 연결

기관

 

기관명 색인

관련항목 연결

시간

 

 

전자연표 연결

공간

 

 

전자지도 연결

삽도

삽도

시청각자료 분류 디렉토리

 

 

참고문헌

서명

 

서명 색인

관련항목 연결



Ⅲ. 고유명사 요소의 속성과 유형 범위


1. 고유명사 요소의 형식


  본문 텍스트 속에 포함되어 있는 키워드를 정보요소화 하는 방법은 키워드 하나 하나에 대해 XML 태그를 부가하는 것이다. <인명>, <지명>, <서명>, <기관>과 같은 본문 속의 고유명사 요소를 필자는 ‘문중요소’(文中要素, In-Text Element)로 분류한다. ‘문중요소’란 ‘구조요소’에 상대되는 개념으로 텍스트 중간에 삽입되어 특정 어휘 또는 어구의 성격을 식별하는 기능을 수행하는 요소이다.3) 필자는 선행 연구를 통해 전자 텍스트를 편찬할 때 이 문중요소를 효과적으로 운용하는 방안을 모색하였고, 그 성과의 하나로서 고유명사 표기를 위한 XML 요소 및 속성 정의의 표준 시안을 다음과 같이 제안하였다.4)


<표 2> 고유명사 요소의 종류 및 속성 정의

요소

Element

속성 Attribute

비고

하위 요소

유형

식별자

인명

성명, 성, 명, 자, 호, 왕명, 봉작호, 시호, 승명, 여성인명,  외국인명 등을 구분

해당 요소의  대표명칭. 관련된 상세정보를 찾아갈 수 있는 유니크 키를 지정

식별자를 매개로 해당 고유명사와 관련된 대표 항목 연결

구조요소 : 없음

문중요소 : 없음

지명

국명, 지역명, 자연지명, 시설명, 유적명 외국지명 등을 구분

서명

서명, 편명, 문서, 작품명 등을 구분

연호

왕조를 구분


  「향토문화전자대전」 전자문서에 적용한 정보 요소 설계는 기본적으로 이 표준 시안에 근거하였다. 다만 <연호> 요소는 대상 자료가 고문헌(古文獻)인 경우 반드시 필요하나 「향토문화전자대전」에서는 고유명사로서의 ‘연호’의 출현 빈도가 높지 않고, 또 <시간> 요소가 그 기능을 대신할 수 있기 때문에 잠정적으로 그 사용을 유보하였다. 대신  「향토문화전자대전」에는 지역 사회에서 중요한 기능을 담당하는 기관․단체에 관한 기사가 많이 등장하므로 이의 중요성을 감안하여 기관․단체의 이름을 <기관> 이라는 요소로 식별하기로 하였다.

  표준 시안에서 제시된 바와 같이 「향토문화전자대전」의 모든 고유명사 표기 요소는 ‘유형’과 ‘식별자’라고 하는 두 개의 속성을 갖는다. 이 중 ‘식별자’ 속성은 위의 표에서 설명한대로 그 요소와 관련한 정보를 찾아 갈 수 있는 유니크 키5)를 지정하는 것으로서,  고유명사 키워드가 하이퍼텍스트 노드의 역할을 하게 하는 기능을 수행한다.  ‘유형’ 속성은 해당 요소를 그 값의 성격에 따라 분류한 정보로서 디렉토리 서비스나 색인어 목록 서비스를 위한 분류 데이터로 활용된다.


2. 고유명사 요소의 유형 속성


  ‘식별자’ 속성과 ‘유형’ 속성의 값은 요소 태깅과 함께 부여되는 것이 원칙이겠으나, 전자의 경우 기계적 검증이 따라야 하기 때문에 전산 시스템에 의존하는 후처리 과제로 두었고, 단계적으로 그 정밀도를 높여 가는 것으로 하였다. 그에 반해 ‘유형’ 속성의 값은 일종의 내용 분류이므로 전적으로 사람에 의존하여 만들어져야 한다.

  고유명사 요소 태깅 업무에 참여한 작업자들은 ‘요소 식별’과 ‘유형 속성 값 부여’라고 하는 두 가지 과제를 부여받았다. 그 중 두 번째 과제인 고유명사의 유형 속성 부여는 보편적인 기준에 의한 완벽한 분류를 의도한 것은 아니다. 해당 요소의 외연에 대한 이해를 높여서 요소 식별을 보다 정밀하게 하는 것이 보다 중요한 목적이었다고 해도 무방하다. 그렇기 때문에 「향토문화전자대전」 고유명사 요소의 유형 분류 기준은 분류 체계 그 자체의 합리성보다는 작업의 편의성과 서비스 시스템 상에서의 활용 가능성 위주로 마련되었고, 작업자에게 부담이 된다고 판단될 때마다 더욱 간소한 체계로 조정하였다. 또한 작업자들에게는 항상 태깅 작업의 의의를 염두에 두고, 유형 분류에 과도한 노력을 기울이지 말 것을 권고하였다.6)

  「향토문화전자대전」 고유명사 키워드 태깅에 적용한 유형 속성 분류 틀은 다음과 같다. 2006년도 사업과 그 이전 사업의 분류 틀이 다른 것은 그 사이에 실효성 검토에 의한 조정이 있었기 때문이다.


<표 3> 「향토문화전자대전」 고유명사 요소의 유형 속성

요소

성남대전 및 청주대전

(2004 ~ 2005)

진주대전, 강릉대전, 진도대전

(2006)

인명

군호, 명, 묘호, 법명, 설화인명, 성, 성명, 시호, 여성인명, 외국인명, 자, 호 (12)

성명, 성, 명, 자, 호, 왕명, 봉작호, 시호, 승명, 여성인명,  외국인명(11)

지명

국명, 행정지명, 마을, 지구명,  주소

강, 고개, 산, 호수

시설, 장시, 공원, 다리, 도로,

유적, 외국지명, 고지명 (17)

국명, 주소, 자연지명, 시설, 도로, 유적, 외국지명(7)

※ 지번을 포함하는 경우에만 주소로 취급

※ 시, 군, 구, 읍, 면, 동, 리 등의 행정지명은 유형 구분 생략

서명

서명, 연속간행물, 편명, 문서, 작품명 (5)

서명, 연속간행물, 편명, 문서, 작품명(5)

기관

관공서, 기관, 단체, 옛기관, 종교단체, 학교 (6)

기관, 단체, 기업, 종교단체, 학교(5)


<표 4> <인명> 요소의 유형 속성 범례

인명 유형

설명/예시

비고

성명(姓名)

성과 이름의 결합으로 이루어진 온전한 인명

 

성(姓)

성씨만으로 특정 인물을 지칭하는 경우. 본관 성씨는 인명으로 취급.

 

명(名)

성씨를 포함하지 않는 이름

 

자(字)

본명 대신 부르던 이름

 

호(號)

본명이나 자(字) 외의 특정 인물을 지목하는 다양한 호칭

남명(南冥), 간재(艮齋), 강호산인(江湖散人), 고면거사(高眠居士), 금강산인(金剛山人), 기화당(氣和堂), 소요당(逍遙堂), 송천노인(松泉老人), 요산주인(樂山主人), 월파거사(月坡居士)

 

봉작호(封爵號)

왕실, 종친에게 부여된 호칭 또는 특정 인물을 가리키는 관작의 칭호

안평대군(安平大君), 연잉군(延礽君), 여성위(礪城尉), 흥선대원군(興宣大院君), 순회세자(順懷世子), 능계수(綾溪守), 능주도정(綾洲都正), 강릉후(江陵侯), 화평군(化平君)

여성과 승려는 “여성인명”및 “승명”으로 취급

시호(諡號)

현신(賢臣)이나 유현(儒賢)들이 죽은 뒤에 그 생전의 공덕을 기리어 임금이 추증(追贈)하던 이름.

문간(文簡), 문강(文康), 문경(文敬), 문숙(文肅), 문순(文順), 문안(文安), 충열(忠烈), 충장(忠壯), 충정(忠貞), 충헌(忠獻)

 

왕명(王名)

왕의 묘호(廟號), 시호(諡號), 그밖의 왕의 지위를 알리는 정보를 포함한 인명

수로왕(首露王), 성덕대왕(聖德大王), 조분이사금(助賁尼師今), 충목왕(忠穆王), 고종(高宗), 영조(英祖)

왕의 본명은 “성명”으로 취급

승명(僧名)

법명(法名) 또는 승려 신분임을 알리는 정보를 포함한 인명

각성(覺性), 경허(鏡虛), 금암선사(錦岩禪師), 나옹(瀨翁), 서산청허조사(西山淸虛祖師), 수자화상(守慈和尙), 원광법사(圓光法師), 원광법사(圓光法師), 자하거사(紫霞居士), 허곡대사(虛谷大師), 묘청(妙淸)

 

여성인명

(女性人名)

특정 여성을 지목하는 다양한 형태의 호칭

계국대장공주(薊國大長公主), 기황후(奇皇后), 문정태후(文貞太后), 정희대비(貞熹大妃), 장희빈(張禧嬪), 조귀인(趙貴人), 조비(趙妃), 정화공주(貞和公主), 혜순옹주(惠順翁主), 계오부인(繼烏夫人), 사임당신씨(師任堂申氏), 천관녀(天官女)

 

외국인명

(外國人名)

외국인의 이름

나하추(納合出), 다루가치(達魯花赤), 토요토미(豊臣秀吉), 마건충(馬建忠), 살리타이(撤禮塔), 소정방(蘇定方), 용골대(龍骨大)

 



<표 5> <지명> 요소의 유형 속성 범례

지명 유형

설명/예시

비고

국명(國名)

외국의 국가명 및 우리나라 역사상의 나라 이름

 

주소(住所)

지번을 포함함으로써 주소 형식을 이루는 지명

 

자연지명

(自然地名)

강, 고개, 산, 호수, 습지, 해변 등 자연 지형에 붙인 이름

 

시설(施設)

시장, 공원, 다리, 도로, 도서관, 체육관, 문화회관, 역, 청사, 공장 등 인공적인 시설물에 붙인 이름

 

도로(道路)

국도, 지방도, 시가지 대로 등의 고유한 이름

도로 이름에서 전성된 지명, 작은 거리 이름 등은 제외

외국지명

(外國地名)

외국에 소재하는 지역의 이름

 


<표 6> <서명> 요소의 유형 속성 범례

서명 유형

설명/예시

비고

서명

단행본, 총서(백과사전 등), 연구보고서, 논문집, 성책된 자료집 등의 제목

『성남시사(城南市史)』, 『강릉군지』, 『경기읍지』, 『고종실록(高宗實錄)』, 『국조방목(國朝榜目)』

 

연속간행물

신문, 잡지, 연감 등

『경기일보』, 『성남일보』 , 『소설미학』 , 『해안문학(海岸文學)』,  The Review of Korean Studies , The Kangrung Herald

 

편명

책의 편․장 제목, 논문의 제목, 연속간행물 기사 제목

「만언봉사」, 「매월당별집 서문」, 「매학정중수기(梅鶴亭重修記)」, 「성남시의 집성촌 연구」, 「세시풍속 놀이 예술편」, 「종교의 공간-계층적 분화: 경기지역의 경우」

 

문서

성책되지 않은 문서의 제목

「백헌 경술년 제1과록 증명녹패」, 「박중신문과급제교지(朴中信文科及第敎旨)」

 

작품명

문학, 조형예술, 공연예술 작품의 이름

「관백헌집유감부시(觀白軒集有感賦詩)」, 「뮤지컬 호두까지인형」, 「혹부리와 심술부리」, 「강릉관노가면극」, 「강릉매화타령」

금석문은 “작품”으로 취급


<표 7> <기관> 요소의 유형 속성 범례

기관 유형

설명/예시

비고

기관

일정한 업무를 수행하는 기구나 조직체. 관공서, 비영리 공공기관 등.

청주시청, 청주여자교도소, 동해지방해양수산청

 

단체

같은 목적을 추구하는 사람들이 결성한 모임

청운장학재단, 충북보육시설연합회, 청주시테니스협회

 

기업

영리를 목적으로 운영되는 기관

한국도자기, 충북여객, 기아자동차 충북지역본부

 

종교단체

교회, 사찰 등 종교적 목적으로 설립, 운영되는 조직

 

학교

교육 기능을 수행하는 기관

 



Ⅳ. 고유명사 요소 식별 사례 분석 및 태깅 원칙의 도출


  사업 착수 이전에  여러 가지 케이스를 고려한 ‘태깅 원칙’을 정하였더라도, 실무 과정에서는 항상 예외적이고 복잡한 문제에 봉착한다.  이 장에서는 성남, 청주, 강릉, 진주, 진도 등 5개 지역의 「향토문화전자대전」의 편찬 과정에서 발견된 다양한 문제 사례들을 제시하고 그것들에 대한 합리적인 태깅 방안을 도출해 보기로 한다.


1. <인명> 요소 태깅에 관한 문제


  1) 식별 원칙


  인물의 고유한 호칭은 모두 인명 요소로 취급한다. 이 경우 가장 먼저 부딪치게 되는 문제는 한 인물을 두 개 이상의 호칭을 나열하여 지칭할 때 하나의 요소로 취급할 것인지, 여러개의 요소로 나누어 볼 것인지 하는 문제이다. 전통시대의 인물들은 본명뿐 아니라 호나 자 또는 시호 등으로 불리웠던 경우가 많고, 오늘날의 원고 집필자들도 습관적으로 그러한 호칭을 두 개 이상 병기해서 사용하는 경우가 많다. ‘우암 송시열’ 또는 ‘백헌 이경석’이라고 하는 예가 그것이다. 이 경우 ‘우암’과 ‘송시열’, ‘백헌’과 ‘이경석’은 각각 독립된 인명 요소로 취급하는 것이 합리적이라고 판단한다. 그 이유는 정보요소를 기반으로 자동 색인을 생성할 때 ‘우암’ 과 ‘송시열’ 각각의 요소가 색인화되고, 그 결과 ‘우암’이라고 쓴 자료와 ‘송시열’이라고 쓴 자료를 다 같이 찾아 줄 수 있기 때문이다. 이러한 요소 분리 원칙은 ‘우암’과 ‘송시열’이 동일 인물이라는 정보를 소실하는 단점도 있는데, 그것은 <인명> 요소가 수반하는 ‘식별자’ 속성에 동일한 식별자를 기입함으로써 해결한다.

  텍스트 속에서 인명 요소를 식별할 때 부딪히는 또 하나의 문제는 인명 표기에 첨가된 부가 설명의 처리이다. 다음의 사례를 보기로 하자


(A)

김유신(金庾信)

이노우에(井上秀雄)

달레(Ch. Dallet)


(B)

박제상(朴堤上, 363-419)

차형원(車亨元,1890년 9월 5일생)

범일(梵日: 초명은 품일)

이덕휘(李德輝: 지사장)

왕순식(王順式: 王氏 성은 고려 태조에게 귀순한 뒤 賜姓된 것임)

김주원(金周元: 강릉김씨 시조)

주원공(周元公: 김주원)

하디(R. A. Hardie, M.D, 1865-1949)


(C)

남효온(1454~1592)

김복순(소프라노)

하수조(남.65)

신현일(신민당)

문형남(병원장)


  케이스 (A)는 정상적인 인명 표기로서 그 전체를 <인명> 요소로 취급하는 데 문제가 없는 것들이다. 「향토문화전자대전」에서는 모든 인명을 한글로 표기하고 괄호 속에 한자와 영문 알파벳을 병기하도록 하였는데, 이 한자와 영문자는 인명 식별의 중요한 요소이므로 인명의 일부로 간주하는 것이다.

  케이스 (B)는 한자나 알파벳 병기를 위한 괄호 속에 생몰년, 이명, 지위, 본명, 그밖의 보충 설명문을 삽입한 경우인데 이것은 인명의 일부가 아님이 분명하다. <인명> 요소 태깅의 목적을 ‘인명’의 엄밀한 추출에 둔다면 이름 이외의 것들은 요소 값의 범위에서 배제시켜야 하겠지만, 그러한 경우에는 작업자들이 텍스트 내용을 보다 면밀히 살펴야 하고, 심지어는 본문 자체를 수정해야 하기 때문에 작업 효율성의 이유에서 이 문제는 보다 융통성있게 처리하는 것이 바람직하다. 인명에 괄호가 붙고, 그 안에 그 인명의 다른 표기나 호칭이 그 밖의 정보와 섞여서 기술된 경우, 그 내용 여하를 분문하고 그 전체를 하나의 인명으로 처리하도록 한다. 단, 색인어 목록이나 하이퍼 링크 인덱스를 만들어 내는 후처리 과정에서는 괄호 속의 내용을 기계적으로 살펴서 이름 이외의 정보는 색인화 대상에서 배제시킨다. 이러한 판단은 분석의 합리성보다는 작업의 편의성을 고려한 것이다.

  케이스 (C)는 괄호를 보충 설명의 용도로만 사용한 예이다. 이 경우에는 인명과 보충 설명 부분을 분리하여 인명에 대해서만 태그를 부가한다.


  2) 왕호: 존호 처리 문제 및 왕대 표기 문제의 처리


  「향토문화전자대전」의 기사 중에는 전통시대를 다루는 글이 많고, 그 가운데 사람의 이름과 그 사람의 지위를 알리는 단어가 병기된 경우도 적지 않다. ‘관직명’은 태깅 대상에 포함시키지 않기로 하였기 때문에 일반인의 경우에는 큰 문제가  없으나 존호를 이름에 바로 붙여쓰는 것이 관행화된 고대 제왕의 호칭에는 그 원칙의 적용이 쉽지 않다.  이 경우 관용적인 쓰임을 존중하여 왕의 지위를 알리는 존호는 왕의 이름의 일부로 취급하기로 하였다.


<인명 유형=“왕명”>김수로왕(金首露王)</인명>

<인명 유형=“왕명”>조분이사금(助賁尼師今)</인명>

<인명 유형=“왕명”>성덕대왕(聖德大王)</인명>


  또한 왕에 대한 호칭은 ‘이름+존호’ 또는 묘호, 시호 등이 대부분인데 그것의 유형 속성은 “왕명”으로 통일하기로 하였다. 단 왕이 된 인물이라도 본문 속에서 일반적인 ‘성명’ 형태로 기술된 것은 그 유형 속성을 “성명”으로 한다.


<인명 유형=“성명”>이성계</인명>


  왕호와 관련하여 제기된 또 하나의 문제는 ‘세종 2년’, ‘숙종 10년’처럼 연대 표시를 위해 쓰인 묘호를 인명 요소로 취급할 것이냐 하는 것이었다. 이러한 용례는 중국의 연호와 유사한 것으로 보고 인명의 범주에 넣지 않기로 하였다. 즉 ‘세종’이나 ‘숙종’ 만을 인명으로 보기보다는 ‘세종 2년’, ‘숙종 10년’을 연대를 표시하는 하나의 정보 단위로 보고자 한 것이다. 원래 「향토문화전자대전」 전자 문서 편찬계획 상에는 이와 같은 연대 표시 정보들을 모두 ‘<시간>’이라는 요소로 처리하기로 하였지만, 현재까지 이 ‘<시간>’ 요소의 태깅 업무을 작업자에게 부과하지는 않았다. 연대 표기 구문은 프로그램을 통해 자동적으로 검출해 내는 것이 용이하므로 기계적 일괄 작업을 통해 처리하고자 한 것이다.  단, 재위년과 병기되지 않은 묘호는 비록 그것이 연대 표시의 목적으로 쓰였다고 하더라도 인명으로 처리하도록 한다.


<인명 유형=“왕명”>선조</인명> - <인명 유형=“왕명”>중종</인명> 연간


  재위년 표시가 병기되지 않은 묘호는 그것이 시간적 개념인지 컴퓨터가 기계적으로 판단하기 어렵기 때문에 <인명> 요소로만 취급하기로 한 것이다.


  3) 여성의 이름: 전근대 여성의 다양한 호칭에 대한 통일적인 식별 방안


  전통시대의 여성은 ‘성+명’ 형태의 이름이 알려지지 않은 경우가 대부분이며, 이들을 호칭할 때 대체 수단으로 쓰인 경우가 매우 다양하므로 인명 요소로 분석해 내는 일이 용이치 않다.


(A)

신사임당(申師任堂, 1504~1551)

허난설헌(許蘭雪軒, 1563~1589)


(B)

인목대비(仁穆大妃)

선덕공주(善德公主)

순원왕후 김씨(純元王后金氏)

덕비(德妃)


(C)

영희군부인(永禧君夫人) 권씨

동래현부인 증군부인 정씨(東萊夫人贈郡夫人鄭氏)


(D)

이씨(李氏)

삼척김씨(三陟金氏)

개성부인

초당리부인(草堂里夫人)


(E) 

김억손 처 장덕

송상현 첩 이소사

강득룡 처 김씨


  여성들에 대한 호칭을 분석해 보면 당호, 봉작호, 존호, 본관성씨, 성씨, 이름 등 다양한 요소가 있고 또 그것을 결합하여 쓴 사례가 많다. 이러한 요소들을 모두 분석해 내는 것은 들이는 노력에 비해 얻는 효과가 적다고 판단하였으며, 여성은 남성에 비해 이름을 남긴 수가 극소하므로  ‘여성’이라는 범주로 묶어서 식별하는 것이 유효하다고 생각하였다. 그래서 위에 예시한 사례 가운데 (A), (B), (C), (D)와 같은 유형의 것은 모두 하나의 인명으로 보며, 그 속성은 “여성인명”으로 한다.  이것은 남성들에 대해 적용하는 인명 요소 분석 원칙에 위배되는 결정이다. 예컨대 존호나 봉작호에 성씨가 더해져서 이루어진 호칭의 경우 그 각각을 하나의 인명 요소로 나누어야 남성 이름 태깅과  일관성을 유지할 수 있다. 그러나 여성의 경우 다른 호칭을 떼어내면 성씨만 남게 되어 식별력이 떨어지므로 예외적인 처리를 허용한 것이다.

  예시 (B)는 내명부 여성들의 이름인데, 이 가운데 덕비(德妃)는 성씨와도 결합하지 않은 순수한 품계 이름이지만, 문맥 상에서 명시적으로 특정 여성을 지칭하므로 인명으로 취급하였다.

  예시 (C)는 봉작호와 성씨가 결합한 외명부 여성의 호칭인데, 이러한 사례가 많지 않지만 여성의 경우에는 하나의 이름으로 보기로 하였다.

  예시 (D)는 성씨나 출신지로서 특정 여성을 호칭한 경우인데, 단어 그 자체만으로는 이름이라고 보기 어렵지만 문맥상 특정 인물의 이름으로 쓰였으므로 인명으로 취급하였다.

  예시 (E)는 여성을 남편의 배우자로 호칭한 것이다. 이 경우에는 앞에 나온 남편의 이름이 명백히 하나의 인명 요소가 되므로 다음과 같이 분리해 준다. 이것은 남편의 이름이 하이퍼텍스트 노드로 작용할 때 더 유용한 연결을 이룰 수 있다는 고려에서 내린 결정이기도 하다.


<인명 유형="성명">김억손</인명> 처 <인명 유형=“여성인명”>장덕</인명>

        

  “유관순”, “김영희” 등 통상적인 형태의 인명은 여성인명이라 하더라도 유형 값을 “성명”으로 한다.


  4) <인명> 요소를 분리하지 않아야 할 경우


  기관명, 단체명, 행사명, 제도명[시상제도], 작품명 등 이미 고유한 이름이나 용어로 굳어진 단어 속에 포함된 사람의 이름을 인명 요소로 처리해야 할 것인가의 문제도 제기되었다. 이러한 경우에는 그 용어의 독립성을 보장하기 위해 인명 요소를 분리 태깅하지 않는다. 이 때 그 용어와 특정 인물의 관계성에 대한 정보가 소실될 수 있지만, 대체로 이러한 용어가 포함된 기사 속에는 그 사람의 이름을 별도로 언급하는 경우가 많기 때문에 관련 정보의 연결이 충분히 이루어진다고 판단하였다.


김수녕기념양궁장

김복진미술제

단재서예대전


2. <지명> 요소 태깅에 관한 문제


  1) 식별 원칙


  지역의 고유한 이름은 모두  지명 요소로 취급한다.  “경기도 성남시 분당구 운중동”과 같이 등 두 개 이상의 지명이 나열된 경우, 그 각각의 단어가 뜻하는 대상이 다르기 때문에 별도의 요소로 다루는 것이다.


<지명>경기도</지명> <지명>성남시</지명> <지명>분당구</지명> <지명>운중동</지명> <기관 유형=“기관”>한국학중앙연구원</기관>


  그러나 이러한 식별 원칙은 「향토문화전자대전」 텍스트 안에서 수없이 등장하는 기관, 단체, 유적 등의 주소지에 그대로 적용할 때 큰 불편이 따른다. 더구나 주소지는 계층적 관계의 지명들이 결합하여 하나의 지점을 지목하는 역할을 하기 때문에 하나의 정보 요소로 취급해야 한다는 의견도 제기되었다. 이러한 점을 고려하여 지명을 나타내는 텍스트가 ‘지번’을 포함하여 ‘주소 형식’을 이룰 때에는 전체 주소지를 하나의 요소로 취급하고 그 유형 속성을 “주소”라고 명시해 주기로 하였다.  후처리 작업으로 본문 텍스트 전체에 대한 지명 색인을 생성할 때에는 주소 유형 지명 속의 개별 단어들을 분리해 내는 작업을 프로그램으로 수행한다.


<지명 유형=“주소”>성남시 분당구 운중동 50</지명>


  2) 국명 식별의 범위와 기준


  나라 이름은 지명에 속한다. 그러나 공간적 개념보다는 시간적 개념으로 쓰인 역사상의 나라 이름도 지명으로 취급해야 하는가 라는 문제가 제기될 수 있다. 그러나 공간적 개념과 시간적 개념의 구분도 모호할 수 있기 때문에 외국 국명과 우리나라의 역사상의 국명은 모두 “국명”으로 취급하기로 하였다.


<지명 유형="국명">신라</지명>의 <지명>청주</지명> 진출


  오히려 하나의 단어로 굳어진 어휘 속에 포함된 나라 이름은 <지명>으로 취급하지 않기로 하였다. 이러한 단어들은 그 지역에 대한 정보와 무관한 것이 많기 때문에 하이퍼텍스트 노드로서의 역할을 충실히 할 수 없다고 판단하였기 때문이다.


미군, 왜적, 일본군, 영국제, 미국산

<지명 유형=“국명”>일본</지명> 군대


  3) 지명 유형의 식별 기준


  지명 요소는 국명(國名), 주소(住所), 자연지명(自然地名), 시설(施設), 도로(道路), 외국지명(外國地名) 등을 식별하여 그 값을 유형 속성에 기입하도록 하였다.  이것은 다른 요소의 유형 속성과 마찬가지로 키워드를 유형별로 분류하여 고품질의 용어 색인을 생산하기 위한 목적에서였다. 하지만, 지명 요소 중에서 가장 출현빈도가 높은 일반지명[행정지명, 마을 이름, 지구명 등]은 2006년 사업부터 속성 부여를 생략하기로 하였는데,  그것은 수작업으로 처리하기에 작업량이 너무 많은 반면, 일반지명은 대체로 그 대상이 주소 체계를 통해 알려져 있기 때문에 향후 기계적 방법으로도 속성 부여가 가능하기 때문이다.  속성 구분을 하지 않는 일반지명은 다음과 같은 것들이다.


- 행정지명: 도, 시, 군, 구, 읍, 면, 동, 리의 이름


- 마을 이름: 최소 행정 단위(동․리) 이하의 취락 지역의 속명


<지명>재낭골</지명> 마을 유적

<지명>갓골</지명>

<지명>개미실</지명>

<지명>말무덤</지명>


- 지구명: 공단, 신도시 등의 고유명사화한 이름


<지명>분당신도시</지명>

<지명>청주산업단지</지명>



  “자연지명”으로 분류하는 것은 산, 강, 고개, 습지, 호수, 해안, 섬 등의 고유한 이름이므로 그 식별이 용이하여 별다른 문제를 야기하지 않는다. 그러나 “시설”, “유적”, “도로”와  같은 속성의 구분 기준은 모호한 부분이 있어서 태깅 능률의 저하를 초래하기도 하였다. 다음은 “다리[橋]”의 범주에 드는 지명의 다양한 유형 구분 사례이다.


(A) “시설”과 “유적” 및 일반지명의 구분 기준


  - 현존하고, 설치 목적대로 사용하는 시설물은 <지명 유형=“시설”>로 취급


<지명 유형=“시설“>개신교</지명> ※현존하는 다리


  - 과거에는 시설물이었으나 현재는 유적으로만 존재하는 것은 <지명 유형=“유적”>으로 취급


<지명 유형=“유적“>남석교</지명> 명문 ※현재 다리로 존재하지 않는 유적


  - 지역 이름으로 전성된 것은 일반지명으로 취급


<지명>삽다리</지명> ※다리 이름에서 유래한 마을 이름


  “도로” 속성을 갖는 지명도 이와 유사한 문제를 안고 있다. 실제 “도로”로 보아야 할 것과 일반지명으로 취급해야 할 것이 있기 때문이다.


(B) “도로”의 적용 범위


  - 도로: 국도, 지방도, 시가지의 대로 등 여러 지역을 관통하는 교통로에 한정.


<지명 유형=“도로”>경부고속도로</지명>

<지명 유형=“도로”>제1순환도로</지명>

<지명 유형=“도로”>중앙로</지명>


  - 지역 이름으로 전성하거나, 좁은 범위의 공간 안에 있는 길은 속성 생략


<지명>내수동길</지명>

<지명>도고통골목</지명>

<지명>큰 주막거리</지명>


  지명 요소의 유형 속성 구분 기준을 일단 위와 같이 마련하였지만, 이것이 모든 경우에 대응할 수 있는 판단 기준이 되지 못하고 있는 것이 사실이다. 특히 해당 지역의 지리적 상황에 익숙치 않은 사람이 태깅 작업을 담당하게 되면, 텍스트의 문맥만 가지고 그 지명의 성격이 무엇인지 판단하기 어렵다. 따라서 이와 같은 유형 속성의 부여는 그 성격 파악이 용이한 것에 대해서만 선택적으로 시행하고 있다. 유형 구분이 망라적이지 못하지만 이 작업을 통해 축적된 데이터는 보다 정밀하고 합리적인 요소 분석 기준을 마련하는 데 도움이 될 것이다. 또한  대표적인 지명 요소에 대해서라도 부가 정보가 기입되면 정보 서비스의 품질은 그만큼 향상될 것으로 기대한다.


  4) <지명> 요소를 분리하지 않아야 할 경우


  기관명, 단체명, 행사명, 제도명[시상제도], 작품명 등 이미 고유명사화한 이름 속에 포함된 지명 요소는 <인명> 요소의 경우와 마찬가지로  분리 태깅하지 않는다.


청주시체육문화상

청주인쇄출판박람회

<서명 유형=“작품명”>「청주용두사철당명변」</서명>

<서명 유형=“작품명”>「강원도의 산」</서명>


3. <서명> 요소 태깅에 관한 문제


  1) 식별 원칙


  고서, 고문서, 단행본, 연속간행물, 예술작품의 고유한 제목 등은 서명 요소로 취급한다.

  인명․지명의 경우와 마찬가지로 서명도 관련 있는 단어들이 여러 개 나열될 때 어디까지를 하나의 정보 단위로 보아야 하는가가 문제시된다. 특히 인용의 전거를 밝히는 곳에서는 책 이름과 편․장의 제목을 병기하는데, 이러한 경우 서명과 편․장의 제목은 각각 하나의 <서명> 요소로 취급한다.


<서명 유형=“서명”>맹자(孟子)</서명> <서명 유형=“편명”>공손추(公孫丑)</서명>


  그러나 ‘서문’․‘발문’과 같이 독립적으로는 편․장 제목의 역할을 못하고 책 이름과 함께 나와야만 글의 제목 역할을 하는 것은 서명과 병기된 형태를 하나의 요소로 취급한다.


<서명 유형=“편명”>「매월당별집 서문」</서명>


  두 종류 이상의 책을 지칭하는 경우, 당연히 분리해서 태깅해야 하겠지만, 어떤 경우에는 원래 2종의 책이었던 것을 하나로 묶어서 편찬하거나 번역한 책을 지칭하는 경우도 있기 때문에 이에 속한다고 판단될 때에는 하나의 요소, 즉 한 권의 책으로 표시한다.


<서명 유형="서명">『대학장구․혹문』</서명>

※한 권의 책인 경우


<서명 유형="서명">『대학장구』</서명>․<서명 유형="서명">『대학혹문』</서명>

 ※두 권의 책인 경우


  2) 서명 유형의 식별 기준


  「향토문화전자대전」에서는 문헌자료나 예술작품의 이름을 모두 <서명> 요소로 취급하지만, 이것은 요소의 종수를 늘리지 않기 위해서 편의상 묶은 것일 뿐이다. 태깅 대상이 된 자료가 실제로 어떠한 종류의 것인가 하는 정보는 이 <서명> 요소의 유형 속성에 기입한다. <서명> 요소 유형 속성은 서명, 연속간행물, 편명, 문서, 작품명 등 5 가지 중 하나를 선택하도록 하였다. 유형 분류의 판단 기준은 다음과 같다.


(A) “서명” 과 “편명”의 구분


  - 단행본, 총서(백과사전 등), 연구보고서, 논문집, 성책된 자료집 등의 제목에 대한 유형 속성은 “서명”으로 한다.

  - 책의 편․장, 논문집 속의 논문, 연속간행물의 기사 등의 제목을 가리키는 경우 유형 속성 값은 “편명”으로 한다.


(B) “문서”와 “서명”의 구분


  - 유물 또는 자료로 남아 있는 문헌 기록 중 문서 형태를 가진 것의 제목은 유형 속성을 “문서”로 한다.

  - 고문서의 유형 속성을 “서명”으로 하느냐 “문서”로 하느냐의 판단 기준은 성책(成冊) 여부[책자 형태로 묶여졌는가]에 둔다.


<서명 유형="서명">『명․의종어필』</서명> ※성책된 기록물인 경우

<서명 유형="문서">「물종단자(物種單子)」</서명> ※성책되지 않은 기록물


(C) “연속간행물”의 범위


  - 신문, 잡지, 연감 등의  제목에 대한 유형 속성은 “연속간행물”로 한다.


(D) “작품명”의 범위


  - “○○銘”, “○○碑文” 등 종이에 기록되지 않는 글의 유형 속성은 “작품명”으로 한다.

  - 시, 노래 가사, 그림, 영화, 공연예술작품 등의 유형 속성은 “작품명”으로 한다.


4. <기관> 요소 태깅에 관한 문제


  1) 식별 원칙


  <기관> 요소는 기관, 단체의 고유한 이름을 식별하기 위한 요소이다. 다른 요소들과 마찬가지로 독립 기관이 여러개 나열될 때는 '1 기관 → 1 요소' 원칙을 준수하여 각각 별개의 요소로 취급하지만, ‘지부’, ‘지방사무소’ 등 모기관에 종속적인 기관을 언급할 때에는 하나의 요소로 취급하기로 하였다.  이 경우 모기관의 이름을 고유명사로 취급하고 ‘지부’, ‘지방사무소’ 등은 일반 명사로 보아야 한다는 의견도 제시되었으나 「향토문화전자대전」의 성격상 그 지방에 위치하는 조직을 우선시한다는 입장에서 모기관의 이름을 분리하지 않기로 하였다. 하지만 향후 여러 지역의 「향토문화전자대전」이 하나로 묶여서 종합적인 데이터베이스로 구축될 때에는 각 지역에 산재한 지부․지사등을 묶어서 살필 수 있는 기능도 구현되어야 하므로 이와 같은 식별 기준은 보완할 필요가 있다고 생각한다. 


<기관 유형="기관">지방공사 충청북도청주의료원</기관>

<기관 유형=“기업”>기아자동차 충북지역본부</기관>

<기관 유형=“기관”>대한법률구조공단 춘천지부 강릉출장소</기관>

<기관 유형="기관">동해지방해양수산청 주문진항로지표관리소</기관>


  2) 기관 유형의 식별 기준


  <기관> 요소의 세부 유형은 “기관”, “단체”, “기업”, “종교단체”, “학교” 등 5 가지로 구분하기로 하였다. 이것은 여러 차례의 시행착오를 거쳐 작업자의 혼란을 최소화하는 방향으로 조정된 것이지만, 여전히 많은 문제를 유발하고 있는 것이 사실이다. “기관”과 “단체” 또는 “기관”과 “기업”의 개념 구분이 명확하지 않은 것도 그 이유이지만, 보다 큰 문제는 「향토문화전자대전」의 기사 내용만으로는 그 기관의 실체를 정확하게 파악하기 힘들다는 것이다. 기관 요소의 유형 분류는 현재까지 축적된 데이터를 토대로 보다 합리적인 기준을 마련할 필요성을 안고 있다. 다음은 “기관”, “단체”, “기업”의 유형 구분 기준으로 삼고 있는 각 개념의 정의와 적용 범위이다.


<표 9> <기관> 요소 유형의 개념 정의 및 적용 범위

유형

정의

범위 

사례

기관

일정한 업무를 수행하는 사회의 각 기구나 조직체. 의결기관, 집행기관, 자문기관 따위

중앙정부 및 지방자치단체의 행정, 입법, 사법 관서(=관공서)는 기관으로 취급

청주시청

청주시농업기술센터

청주여자교도소

‘비영리 공공 기관’은 “기관”으로 취급.

한국학중앙연구원

대한적십자충북지사

기업 형태 조직이라고 하더라도 ‘공익’을 목적으로 설립․운영되는 곳은 “기관”에 포함.

토지개발공사

KBS청주방송총국

명칭만으로 영리․비영리 조직의 구분이 어려운 경우, “기관”에 포함시키거나 ‘유형’ 구분 생략

기화생활풍수연구소

무심갤러리

단체

일정한 업무를 수행하는 사회의 각 기구나 조직체. 의결기관, 집행기관, 자문기관 따위

동호회, 장학재단, 이익단체 등

청운장학재단

충북보육시설연합회

청주시테니스협회

기업

영리를 목적으로 생산·판매·서비스 따위의 사업을 행하는 조직체

영리적 회사 조직임이 분명한 경우에만 “기업”으로 취급

한국도자기

충북여객

기아자동차 충북지역본부



Ⅴ. 태깅 오류 발생 사례 분석 및 모호성 해소 방안


  수작업에 의한 태깅 과정에서 작업자들이 특히 곤혹스러워하는 것은 유형 분류의 어려움이지만, 이것은 참고 데이터의 축적을 주목적으로 하는 것이고 명확하지 않은 것에 대해서는 판단을 유보하도록 하였기 때문에 사업 수행의 큰 부담으로 작용하는 것은 아니다. 하지만 <인명>, <지명>, <서명>, <기관> 등 요소를 판정하는 데에서 발생하는 오류는 키워드 색인 작업에 직접적인 영향을 끼치고, 서비스 이용자의 눈에도 오류로 부각되므로 문제의 원인을 파악하여 반복적인 발생을 막아야 한다. 이 장에서는 2005년 하반기부터 현재까지 약 2년간 「향토문화전자대전」 텍스트 본문 태깅 작업을 수행하는 과정에서 드러난 대표적인 문제 상황을 제시하고 그 해결 방법을 모색해 보기로 한다.


1. <지명> 요소와 <기관> 요소 구별의 모호성 문제


  <지명> 과  <기관> 은 둘 다 색인 서비스나 하이퍼텍스트 링크를 위한 키워드로서 중요성을 갖는다. 따라서 그 두 가지를 키워드로 추출하고자 한 의도는 바람직하지만, 그것을 별개의 정보요소로 삼는 것은 출발점에서 풀기 어려운 난제를 수반한 것이었다고 할 수 있다. <지명>과 <기관>을 구분하기 어려운 경우가 적지 않기 때문이다. 일례로 “청주동물원”은 지리적인 위치를 점하는 지명으로 볼 수도 있지만, 동시에 청주시의 관리를 받은 산하 기관의 하나이기도 하다. 이것을 지명으로 보든, 기관명으로 보든 일관성 있게 분류한다면, 그러한 판정이 마음에 안든다고 해서 ‘오류’라고 할 수는 없다. 그러나 똑같은 이름이 작업자에 따라 <기관>으로 표시되기도 하고 <지명>으로 표시되기도 한다면 그 불일치는 오류로 지적되기 쉽다. 인간의 언어는 기하학적 도형과 달리 그 경계가 명확한 것이 아니며, 모든 개념어에는 외연의 교집합이 있기 마련이므로 이러한 문제에 대해 개념 분석의 방법으로 정답을 찾는 것은 불가능하다. 하지만 편찬자의 자의적 판단이라 할지라도 일정한 판정 기준을 세우는 것은 작업의 능률과 결과물의 일관성을 위해 반드시 필요한 일이다.  


  1) 시설물 지명(<지명 유형=“시설”>)과 기관명(<기관 유형=“기관”>)의 구분 기준


  지리적 위치를 점하는 인공적인 시설물로서 <지명>으로 볼 수도 있고, 또 그것의 운영 주체가 있다는 점에서 <기관>으로도 볼 수 있는 대상을 구분하는 방법에 대해 다음과 같이 원론적인 판정 기준을 설정해 보았다.


지리적 위치나 건축물에 대한 예속성이 높은 곳은 <지명 유형=“시설”>로 처리하고, 지리적 위치보다 기관의 성격이 더 중요한 의미를 갖는 곳은 <기관 유형=“기관”>으로 한다.

 

  이러한 식의 준칙은 논의의 출발점은 될 수 있어도 그 논의를 종식시키는 명확한 기준은 되지 못한다. 무엇이 더 중요한가는 보는 이의 주관에 따라 달라질 수 있기 때문이다.  보다 확실한 판단 기준을 마련하기 위해서는 적용 범위를 한정하고 그 안에서 구체적인 사례들을 조사하여야 한다. 「향토문화전자대전」의 기사 항목으로 취급되는 시설물이나 기관에 한정하여 그 구분 기준을 마련하기로 한다면, 다음과 같은 방안을 도출할 수 있을 것이다.


- 체육시설, 도서관, 미술관, 박물관, 공연장, 문화센터, 교통시설 등  불특정 다수의 대중이 이용하고, 비교적 규모가 커서 인지도가 높은 공공시설물은 <지명 유형=“시설”>로 처리한다.


<지명 유형="시설">청주실내체육관</지명>

<지명 유형="시설">종합운동공원</지명>


<지명 유형="시설">정봉역</지명>

<지명 유형="시설">청주시외버스터미널</지명>


<지명 유형="시설">청주 기적의 도서관</지명>

<지명 유형="시설">청주시립정보도서관</지명>


<지명 유형="시설">청주시 청소년수련관</지명>

<지명 유형="시설">청주예술문화회관</지명>


- 공공시설이라 하더라도 “보건소”, “우체국”과 같이 행정 기능을 수행하는 기관은 “경찰서”, “세무서” 등과 같이 <기관 유형=“기관”>으로 취급한다.


- “요양원”, “자원봉사센터”, “상담센터”, “문화원”, “○○ 문화의 집” 등과 같이 “지리적 시설물”보다 “특정 기능의 수행”이 의미를 갖는 곳은 <기관 유형=“기관”>으로 취급한다. (지리적 위치나 건축물에 대한 예속성이 낮은 곳)


- 기관을 지칭하는 경우와 기관의 건물을 지칭하는 경우를 구별하여 후자는 <지명>으로 취급한다.


<기관 유형="기관">청주시청</기관>

<지명 유형="시설">청주시청사</지명>


<기관 유형="기업">한국도자기</기관>

<지명 유형="시설">한국도자기공장</지명>


  <지명>과 <기관>의 구분에 관한 이러한 기준이 누구에게나 설득력 있게 비춰질 수 있는 것은 아니다. 이 기준을 지방자치단체 산하 직속 기관 이름에 적용할 경우 그 중의 일부는 <지명>으로, 나머지는 <기관>으로 처리된다.   만일 이들 기관이 시가 관리하는 공공기구라는 점을 위주로 생각한다면 모두 <기관>으로 처리하는 것이 마땅할 것이다.


<그림 2> 지방자치단체 직속 기관/사업소


청주시의회                      ☞ <기관 유형=“기관”>

상당보건소                      ☞ <기관 유형=“기관”>

흥덕보건소                      ☞ <기관 유형=“기관”>

상수도관리사업소                ☞ <기관 유형=“기관”>

농업기술센터                    ☞ <기관 유형=“기관”>

환경사업소                      ☞ <기관 유형=“기관”>

농수산물시장관리사업소          ☞ <기관 유형=“기관”>

차량등록사업소                  ☞ <기관 유형=“기관”>

목련공원관리사업소              ☞ <기관 유형=“기관”>

폐기물관리사업소                ☞ <기관 유형=“기관”>


문화예술체육회관                ☞ <지명 유형=“시설”>

여성회관                        ☞ <지명 유형=“시설”>

우암어린이회관                  ☞ <지명 유형=“시설”>

고인쇄박물관                    ☞ <지명 유형=“시설”>

청주동물원                      ☞ <지명 유형=“시설”>

시립정보도서관                  ☞ <지명 유형=“시설”>


  결국 이러한 논의는 양자택일적 방법으로는 해결할 수 없고, 지리적 관념과 고유명사적 특성을 각각 다른 층위에서 요소화 하는 중층적인 태깅 방법을 통해 해결해야 할 것이다. 현재의 기준에서 볼 때 공공기관이면서 동시에 지명이기도 한 “청주동물원”은 다음과 같은 형태로 기술할 경우 보다 합리적으로 정보요소화되었다고 할 수 있을 것이다.7)


<공간 유형=“시설”><기관>청주동물원</기관></공간>


2) 유적 지명(<지명 유형=“유적”>)과 종교 기관(<기관 유형=“종교단체”>)의 구분 기준


  <지명>과 <기관> 사이의 판정이 모호한 또 하나는 불교 사찰이나 기독교의 교회․성당을  <지명>에 속하는 “유적지”로 볼 수도 있고, <기관>으로 분류하는 “종교단체”로 볼 수도 있는 경우이다. 이 역시 앞에서 언급한 시설물의 경우와 마찬가지로 객관적인 구분 기준을 찾는 것은 무의미하여, 작업 결과물의 일관성을 위한 준칙만을 정한다고 하면 다음과 같은 기준을 세울 수 있을 것이다. 


- 사찰, 성당, 교회의 건물을 지칭하며, 그것이 특정 지점에 예로부터 존재하여 문화재 또는 유적으로 인정받는 경우에는 <지명 유형=“유적”>으로 취급하고 근현대에 설립된 종교단체를 의미하는 경우에는 <기관 유형=“종교단체”>로 취급한다.


<지명 유형=“유적”>상원사(上院寺)</지명>

<지명 유형=“유적”>백운사(白雲寺)</지명>

<지명 유형=“유적”>청주 성공회 성당</지명>


<기관 유형=“종교단체”>월정사 강릉포교당</기관>

<기관 유형=“종교단체”>강릉불교포교소</기관>

<기관 유형=“종교단체”>청주성공회</기관>


2.  유적에 대한 고유명사 태깅의 모호성 문제


  본문 텍스트 속에 쓰인 특정 ‘유물’이나 ‘유적’의 이름은 그 기사의 키워드 역할을 하는 경우가 많다. 그러나 당초 「향토문화전자대전」의 전자 텍스트 구조를 설계할 때  ‘유물’이나 ‘유적’ 그 자체는 요소(Element)로 보고자 하지 아니하였다. 다만 그것이  ‘고유한 이름’을 가지고 있고, 그 이름이 일반인들 사이에서 ‘지명’으로 통용될 경우  “유적”이라는 속성을 가진 <지명>으로 요소화 하기로 한 것이다.  이 기준에 의하면  ‘유적’이라고 하더라도 <지명>으로 간주하기 어려운 것은 태깅 대상이 아니다.

  그러나 이러한 준칙은 처음부터 작업자에게 명확하게 이해되기가 어려웠으며, 작업자에 따라 결과물의 편차가 심하였다. 가장 많이 나타난 문제 사례는 다음과 같은 것이다.


(A) <지명 유형=“유적”>○○○의 묘</지명>

(B) <인명 유형=“성명”>○○○</인명>의 묘


  앞에서 다룬 문제와 마찬가지로 이것도 결과물의 일관성과 정보 서비스의 유용성 향상을 위해 보다 구체적인 지침을 마련할 필요가 있게 되었다.

  “○○○의 묘”의 태깅으로 (A)가 적합한지 (B)가 적합한지를 판단하는 기준은  “○○○의 묘”를 지명으로 볼 수 있느냐 하는 것인데, 이것부터가 그 지역의 특수한 상황이나 보는 이의 관점에 따라 다를 수 있는 것이기 때문에 일반적인 판정을 내리기가 어렵다. 그 “○○○”이 얼마나 유명한 인물인지, 그의 묘역이 크고 단장이 잘돼 있어서 지리적 명칭으로 인지되는지, 아니면 어느 산등성이에 자취도 없는 무덤인지..... 이러한 것을 다 따져서 태깅을 하는 것은 불가능하기 때문에 필자는 유적의 유형만으로 지명인지의 여부를 판단케 하는 편의적인 기준을 제시하고자 한다.

  「향토문화전자대전」의 기사에는 다양한 형태의 지방 소재 유적들이 소개되고 있는데, 그것은 대체로 다음과 같은 범주로 유형화할 수 있다.


(A) 전각(殿閣), 궁(宮), 성(城), 산성(山城), 사찰(寺刹), 암자(庵子), 서원(書院), 향교(鄕校), 능원(陵園), 누정(樓亭), 교량(橋梁), 제언(堤堰), 제방(堤防)

(B) 사우(祠宇)

(C) 인명 + 묘소(墓所), 비석(碑石), 정려각(旌閭閣)

(D) 지명 + 불상, 석탑, 석상, 기념비

(E) 고분군, 유물산포지

(F) 유적이 있던 자리


  (A) 군에 속하는 것은 전통시대에 그것이 처음 만들어질 때부터 고유한 이름을 갖거나 대중이 인지하는 명칭을 가진 것이고 지리적 위치도 고정적이어서 <지명> 요소로 취급하는 데 큰 무리가 없는 것들이다.


<지명 유형=“유적”>근정전(勤政殿)</지명>

<지명 유형=“유적”>무량수전(無量壽殿)</지명>

<지명 유형=“유적”>덕수궁(德壽宮)</지명>

<지명 유형=“유적”>남한산성(南漢山城)</지명>

<지명 유형=“유적”>불국사(佛國寺)</지명>

<지명 유형=“유적”>오세암(五歲庵)</지명>

<지명 유형=“유적”>수표교(水標橋)</지명>

<지명 유형=“유적”>도산서원(陶山書院)</지명>

<지명 유형=“유적”>청주향교(淸州鄕校)</지명>

<지명 유형=“유적”>정릉(貞陵)</지명>

<지명 유형=“유적”>경회루(慶會樓)</지명>

<지명 유형=“유적”>향원정(香遠亭)</지명>

<지명 유형=“유적”>남석교(南石橋)</지명>

<지명 유형=“유적”>벽골제(碧骨堤)</지명>

<지명 유형=“유적”>마동제방(馬洞堤防)</지명>


  (B)의 사우(祠宇)는 고유한 이름을 가진 것과 그렇지 않은 것이 혼재한다. “정절사(旌節祠)”, “송산사(松山祠)”,  “덕천사(德川祠)” 등은 고유명사로 볼 수 있지만 “충렬사(忠烈祠)”는 고유명사로 쓰인 경우와 일반명사8)처럼 쓰인 경우가 있다. 그러나 이를 구분하는 것은 작업자에게 혼란을 줄 수 있기 때문에 “충렬사(忠烈祠)”를 포함한 사우의 이름은 모두 지명으로 간주하는 것이 좋을 듯하다. 또한  사우 이름 앞에 제향된 사람의 이름이 병기된 경우 이것은 지명의 일부로 보지 않고 별도의 <인명> 요소로 처리하기로 한다.


<지명 유형=“유적”>덕천사(德川祠)</지명>

동래부사 <인명 유형=“성명”>송상현</인명> <지명 유형=“유적”>충렬사</지명>


  (C) 군에 속하는 묘소, 신도비, 선정비, 기념비, 효자각, 열녀각, 충신각, 효열문, 충렬문 등은 대체로 사람 이름과 병기되어 나타나는데, 인명 부분을 떼어낸 나머지 부분은 고유명사로 보기 어렵다. 이러한 경우에는 <인명> 요소의 처리를 위주로 하고, 그 전체를 <지명>으로 보지 않는다.


<인명 유형=“호”>연담공</인명> 묘소

<인명 유형=“성명”>송상현</인명> 신도비

<인명 유형=“성명”>곽원호</인명>․<인명 유형=“성명”>곽상조</인명> 부자 효

<인명 유형=“성명”>곽진은</인명> 부부 효자각

기생 <인명 유형=“여성인명”>해월</인명> 열녀각

<인명 유형=“성명”>김상남</인명>․<인명 유형=“여성인명”>김해김씨</인명> 충

<인명 유형=“성명”>김우근</인명> 효자각

<인명 유형=“여성인명”>남원윤씨</인명> 열녀각

<인명 유형=“여성인명”>밀양박씨</인명> 효열각

<인명 유형=“성명”>박동명</인명> 충신각

<인명 유형=“성명”>송상현</인명>․<인명 유형=“성명”>한금담</인명>․<인명 유형=“여성인명”>이소사</인명> 충렬문

의병 <인명 유형=“성명”>홍재희</인명> 선정비

</인명 유형=“성명”>임항조</인명>․</인명 유형=“성명”>채세환</인명> 기념비


  (D) 군에 속하는 불상, 석탑, 석상, 기념비 등과 그밖에 동산(動産)으로 취급될 수 있는 유물(遺物)의 이름은 그 자체를 지명으로 보지 않는다. 명칭 속에 명백히 지명 또는 기관명으로 볼 요소가 포함되어 있을 경우, 그것에 대해서만 태깅을 부가한다.


<지명>우암동</지명> 석조여래좌상

<지명>정하동</지명> 마애비로자나불좌상

<지명>정하리</지명> 마애불

<지명>탑동</지명> 오층석탑

<지명>대성동</지명> 석등

<지명>운천동</지명> 출토 동종


<지명 유형="유적">남석교</지명> 석조견상

<지명 유형="유적">남석교</지명> 명문

<지명 유형=“유적”>신항서원</지명> 묘정비

<지명 유형="유적">용화사</지명> 석불상군

<지명 유형="유적">청화사</지명> 석조비로자나불좌상

<지명 유형="유적">용두사</지명> 금구


<기관 유형="종교단체">대한불교수도원</기관> 석조대좌

<기관 유형="종교단체">대한불교수도원</기관> 출토 석불군


  (E) 군은 「향토문화전자대전」 텍스트 상에서 “고분군”, “유물산포지”, “와요지” 등의 단어를 사용하여 유적이 소재하거나 유물이 출토된 자리를 언급한 부분을 지목한다. 이러한 단어는 지명의 일부로 보지 않고, 대상물 명칭 속에 포함된 고유명사와 일반명사를 구분하여 고유명사에 대해서만 태깅을 부여한다.


<지명>송절동</지명> 고분군

<지명>개신동</지명> 유물산포지

<지명 유형>삼용리</지명> 토기 가마 자리

<지명 유형>산성동</지명> 와요지


  (F) 군은 과거에 어떤 시설물이 있었으나 지금은 그 자리만 남아 있는 곳이다. 이 경우 “○○○지”처럼 고유명사와 붙어서 하나의 단어가 된 것은 그 자체가 지명인 것으로 간주한다. 단, “옛 터”의 의미라고 하더라도 앞의 고유명사와 한 단어를 이루지 않은 것은 분리하여 일반 명사로 취급한다.


<지명 유형="유적">구룡사지</지명>

<지명 유형="유적">남악사지</지명>

<지명 유형="유적">목우사지</지명>

<지명 유형="유적">서뇌사지</지명>

<기관 유형="종교단체">대한불교수도원</기관> 원사지


  이상에서 언급한 태깅 방안 속에 일관되게 적용한 원칙은 ‘유적’이냐 아니냐의 판단보다는 ‘고유명사’냐 아니냐의 판단을 우선시하고 확실한 <인명>, <지명>을 분석해 내는 방식으로 요소화 작업을 진행한다는 것이다. 그러나 유적․유물의 이름이 ‘고유명사 + 일반명사’ 형식의 조어라 하더라도, 그 명칭 전체가 ‘지정 문화재’로 등록되는 등 공식적으로 고유명사화했다고 판단되는 것에 대해서는 고유명사 요소를 더 이상 분석해 내지 않는 것이 바람직하다. 이러한 것은 하나의 정보 요소로 취급되어야 할 필요성이 더 많은 것이기 때문이다.


(A) 고유명사화 하였고 지명으로 취급되는 유적명


<지명 유형="유적">신정동 고가</지명>

<지명 유형="유적">충청북도 도지사 관사</지명>

<지명 유형="유적">대성여중 강당</지명>

<지명 유형="유적">청주 탑동 양관</지명>


(B) 고유명사화 하였으나 지명이 아닌 지물(地物)


용두사지철당간

남석교수성수축사적비


  유적지의 지명에 대한 태깅이 이처럼 복잡한 문제를 수반하게 된 데에는 그 명칭 속에 인명 및 세부지명 등의 요소를 포함하는 경우가 많음에도 불구하고 이를 중층적인 구조로 표현할 수 있는 방법을 적용하지 않은 탓도 있다고 할 수 있다. 다음과 같은 태깅 방법을 상정해 보자.


<유적><인명>이경석</인명> 묘</유적>

<유적><지명>신정동</지명> 고가</유적>


  이 경우 “이경석”, “신정동”처럼 명백히 인명, 지명인 것을 먼저 식별하여 그것을 요소화 하고, 그 고유명사를 포함하여 지칭하는 사물이 유적인지의 여부를 별도로 판단하면 되기 때문에 태깅 작업이 더 쉬워질 수 있다.

  사실 이러한 방법은 처음부터 고려되지 않았던 것이 아니다. 「향토문화전자대전」 전자텍스트의 문중요소(In-Text Element) 중에는 고유명사 요소와 별도로 <시간> 요소와 <공간> 요소가 있는데, 이들은 고유명사 요소를 하위 요소로 하여 중층 구조를 형성할 수 있도록 되어 있다. 더구나 <공간> 요소의 속성 값으로 “유적”을 지정할 수 있도록 하여, 위에서 보인 방식의 태깅이 가능하도록 하였다.


<공간 식별자=“성남:이경석 묘” 유형=“유적”><인명>이경석</인명> 묘</공간>

<공간 식별자=“청주:신정동 고가” 유형=“유적”><지명>신정동</지명> 고가</공간>


  이와 같은 방식으로 공간적 개념에 대한 정보요소화가 이루어지면 하나의 유적지가 독립적인 정보요소로 취급될 수 있을 뿐 아니라, 식별자를 매개로 전자지도와의 링크가 바로 이루어질 수 있게 된다.

  이러한 장치를 마련하고서도 그것을 태깅 작업에 적용하지 않은 이유는 작업자들의 XML 태깅 경험이 부족하고, 이들을 지원하기 위한 기술적 환경이 미비된 상태에서 중층 구조의 태깅을 시행하면 또다른 복잡한 문제가 야기될 수 있기 때문이었다. 하지만 「향토문화전자대전」의 사업의 일환으로 전자 텍스트 개발 환경을 고도화 하는 연구 개발 사업도 꾸준히 진행되어, 편찬자들이 고유명사 태깅 작업과 동시에 전자지도와 정확하게 매핑되는 공간 정보를 생산할 수 있는 기술적 지반이 마련되었기 때문에 2007년도 사업부터는 태깅 작업의 부담을 훨씬 줄이면서 양질의 결과물을 만들어 내는 것을 기대할 수 있게 되었다.



Ⅵ. 맺음말


  「한국향토문화전자대전」 편찬 사업은 지방 도시에서 점차 소멸되어 가는 전통문화를 기록으로 보존하고, 지역 사회에서 보여지는 오늘의 모습을 다음 세대의 후손들에게 전하고자 하는 목적에서 시행하는 사업이다. 그런데 이 사업의 결과물을 책자가 아닌 정보 시스템을 매개로 간행하는 데에는 분명한 이유와 목표가 있다. 지역과 분야의 벽을 넘어서는 소통의 무대를 마련하여 우리의 소중한 문화적 소산이 누구에게나 공유될 수 있도록 하기 위함이다.

  우리 사회에서는 아직까지 정보화라고 하면 지식을 전자적인 매체에 기록하는 일 정도로 인식하고 있다. 그것은 정보화의 초보적인 과정일 뿐 궁극적인 모습이 아니다. 이미 새로운 저작물들은 대부분 전자적인 매체 위에서 생산되고 있으며,  과거의 기록들도 많은 부분이 디지털 정보로 그 형태를 바꾸어 가고 있다. 그 각각의 것에 대한 접근성은 예전에 비해 비교할 수 없을 정도로 향상되었고, 그 추세는 앞으로 더욱 가속화 될 것이다. 하지만 이러한 사실이 가치 있는 정보를 정보를 더욱더 자유롭고 용이하게 획득할 수 있음을 보장하는 것은 아니다.  폭발하듯이 팽창하고 있는 디지털 정보의 양적 규모는 유용한 지식을 무용한 데이터 더미 속에 희석시키는 역기능을 나타내기 시작했기 때문이다.

  정보화의 목표는 자료의 디지털화가 아니라 유용한 지식으로의 접근이 적시에 가능토록 하는 또다른 지능의 구현이다. 이를 위해서는 인간이 가지고 있는 지적 판단의 능력을 컴퓨터에게 학습시키는 노력이 필요하다.

  「향토문화전자대전」 콘텐트를 하이퍼텍스트화 하기 위해 단어 하나 하나에 식별자를 부가하는 것은 문자 코드만을 인식하는 컴퓨터에게 어느 것이 사람의 이름이고, 어느 것이 동네 이름인지를 알려 주려는 노력이다. 이것은 현재 한 두 살의 어린아이에게 초보적인 단어를 학습시키는 것과 유사한 수준이지만, 언젠가 그 지식이 충분히 축적되었을 때 컴퓨터가 인간을 대신하여 가상 세계의 도처에 산재한 정보의 조각들을 의미 있게 묶어서 지식으로 제공해 줄 수 있기를 바라는 것은 허황한 일이 아니다.    

  「향토문화전자대전」은 지방 도시 한 곳 한 곳의 문화를 대상으로 하지만 그 내용을 이루는 정보의 조각들은 한국 문화에 관한 총체적인 지식의 일부가 된다고 할 수 있다. 「향토문화전자대전」에 담긴 용어들을 힘들여 분석하고 그것에 컴퓨터가 이해할 수 있는 꼬리표를 다는 것은 단지 이 프로젝트의 완성도를 높이기 위함만은 아니다.  이 노력이 지속적으로 경주되어 관련 정보의 전자적 연계 기능을 갖는 디지털 한국 문화 용어 사전으로 완성될 경우, 한국 문화에 관한 모든 종류의 정보 시스템이 그것을 매개로 광범위한 네트워크를 형성할 수 있을 것이다. 양적으로 방대하면서도 스스로 의미있는 지식의 맥락을 만들어내는 한국 문화 지식 베이스의 탄생을 기대하는 것이다.



《참고문헌》


[논문]

김  현, 「고문헌 자료 XML 전자문서 편찬 기술에 관한 연구」, 『고문서연구』 29, 2006

---------,「한국 고전적 전산화의 발전 방향 - 고전 문집 지식 정보 시스템 개발 전략 -」(『민족문화』28집, 민족문화추진회, 2005. 12. )

---------, 「한국향토문화전자대전 시스템 프레임워크」, 『2005년 한국향토문화연구자 연찬회』, 한국학중앙연구원·(사)한국향토사연구전국협의회, 2005

---------, 「전자문화지도 개발을 위한 정보 편찬 기술」(『인문콘텐츠』제4호, 인문콘텐츠학회,  2004. 12. )

구영옥, 「한국 고문서의 기술요소 선정과 고문서 XML DTD 설계」, 숙명여대 대학원 석사학위논문, 2003

안병학, 정우봉, 정출헌, 「한국 고전문헌 데이터베이스의 설계·구축 및 응용 방안 연구」(『民族文化硏究』34, 고려대학교 민족문화연구원, 2001)


[인터넷 자원]

한국학중앙연구원, 『한국향토문화전자대전』, http://www.grandculture.net


《국문초록》


이 연구는 『한국향토문화전자대전』이 지향하는 지식 정보의 하이퍼텍스트적 연계가 보다 효과적으로 구현될 수 있도록 하는 데 연구 목적을 두고, 현재 시행하고 있는 XML 전자문서화 작업의 문제점을 사례 중심으로 분석함으로써 합리적인 개선책을 찾고자 한 것이다.  이를 위해 5개 지역(성남, 청주, 강릉, 진주, 진도) 문화대전의 고유명사 태깅 결과를 분석하고,  오류로 간주되는 사례 및 그러한 오류가 발생한 원인을 깊이 있게 고찰함으로써 오류 발생을 최소화할 수 있는 새로운 식별 원칙을 제시하였다. 아울러 이 연구에서는 『한국향토문화전자대전』의 정보요소 태깅이 향후 한국 문화 지식 자원의 광범위한 전자적 소통에 어떻게 기여할 것인지를 밝힘으로써 『향토문화전자대전』 전자텍스트 개발 사업의 의의를 입증하고자 하였다.


《키워드》


한글 키워드

향토문화전자대전, 하이퍼텍스트, 전자문서, 문중요소, 고유명사 태깅

영문 키워드

XML, Encyclopedia of Korean Local Culture, Hypertext, Electronic Document, In-Text Mark-Up Element, Proper Noun Tagging




* 한국학중앙연구원 고문헌관리학과 교수, 한국학정보센터 소장


1) 노드(node): 마디, 결절점(結節點), 교점(交點) 등으로 번역되기도 하지만, 정보통신 분야에서는 우리말화된 외래어로 쓰인다. 주로 통신망의 분기점이나 단말기의 접속점을 의미하는데, 하이퍼텍스트 이론에서는 의미 연관의 네트워킹 속에서 그 연결의 접점 역할을 하는 정보 요소들을 의미한다.


2) 하이퍼미디어(Hypermedia)란 하이퍼텍스트와 멀티미디어가 결합한 것을 일컫는 합성어이다. 내용적 관련성을 좇는 하이퍼텍스트 연결 고리를 텍스트에 한정하지 않고 멀티미디어 데이터에까지 확장한 것을 의미한다.


3) 구조요소와 문중요소

종류

정의

요소

구조요소

構造要素

Structural Element

상위 요소의 구성 인자 역할을 하는 요소

- 최상위 요소 : 항목

- 하위 요소 : 항목명, 메타데이터, 본문

문중요소

文中要素

In-Text Element

텍스트 중간에 삽입되어 특정 어휘 또는 어구의 성격을 식별하는 기능을 수행하는 요소

- 고유명사 표기 요소 : 인명, 지명, 서명, 기관명, 연호

- 주석문 표기 요소 : 원주, 편찬자주, 교열

- 연관성 표기 요소 : 참조, 부출, 시청각

- 시공간정보 표기 요소 : 시간, 공간


4) 김현, 「고문헌 자료 XML 전자문서 편찬 기술에 관한 연구」, 『고문서연구』 29, 2006 214쪽


5) 유니크 키(Unique Key): 하나의 대상을 유일하게 식별할 수 있게 하는 정보. 「향토문화전자대전」의 정보요소와 외부 데이터베이스의 관련 정보 사이의 하이퍼 링크는 이 식별자를 매개로 이루어진다.


6) 고유명사 요소 태깅의 작업 수행 지침은 다음과 같은 두 가지 기준에서 마련되었다.

① 결과의 활용성: 고유명사 태깅의 목적은 고유명사 요소를 하이퍼 텍스트 링크 노드로 활용하기 위해서이다. “어떠한 요소에 대해 태그를 부가하면 하이퍼 텍스트가 효과적으로 구성될까”하는 것을 판단 기준으로 삼는다.

② 작업의 용이성: 요소 및 속성 분석에 과도한 시간과 노력이 투여되는 것은 바람직하지 않다. 명확히 “고유명사로 볼 수 있는 <인명>, <지명>, <서명>, <기관>”만을 태깅 대상으로 삼으며, 모호한 것은 제외한다. 또한 유형을 명확하게 한정할 수 없는 경우에는 유형 속성을 사용하지 않고 요소 표시만 한다.


7) 중층적인 태깅 방법의 도입에 관해서는 5장 2)절에서 논급하고자 한다.


8) 충렬사(忠烈祠): (名) 충신 열사를 기념하려고 세운 사당.